检索结果

Select

1. 基于多层次空间注意力的图文评论情感分析方法

郭可心, 张宇翔

计算机应用 2021, 41 (10): 2835-2841. DOI: 10.11772/j.issn.1001-9081.2020101676

摘要（448）

PDF （6772KB）（568）

随着社交网络的不断普及，相对于传统的文字描述，人们更倾向于发布图文结合的评论来表达自己的情感与意见。针对图文情感分析方法中仅考虑图文间的高级语义联系，而较少注意图片的低层次情感特征以及中层美学特征与文本情感之间关联性的问题，提出了一种基于多层次空间注意力（MLSA）的图文评论情感分析方法。所提方法以文本内容为驱动，使用MLSA设计图像与文本之间的特征融合方法，该特征融合方法不仅关注与文本相关的图像实体特征，而且充分利用图像的中层美学特征和低层视觉特征，从而从多个不同角度挖掘图文之间的情感共现。在两个公开的图文情感数据集MVSA_Single和MVSA_Multi上，该方法的分类效果相对于对比方法中最优的方法的分类效果在准确率上分别提高了0.96和1.06个百分点，在F1值上分别提高了0.96和0.62个百分点。实验结果表明，综合分析文本特征和图像特征之间的层次化联系能有效地增强神经网络捕捉图文情感语义的能力，从而更准确地预测图文整体的情感。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于会话时序相似性的矩阵分解数据填充

乔永卫, 张宇翔, 肖春景

计算机应用 2018, 38 (8): 2236-2242. DOI: 10.11772/j.issn.1001-9081.2018010264

摘要（437）

PDF （1046KB）（362）

针对已有数据填充方法只考虑评分信息和传统相似性，无法捕获用户间真实相似关系的问题，提出了基于会话时序相似性的矩阵分解数据填充方法来缓解数据稀疏性、提高推荐精度。首先，分析了传统相似性的缺陷，并根据时序相似性和相异性提出了基于会话时序相似性度量，它结合了时间上下文和评分信息，能更好地捕获用户间的真实关系，从而识别近邻；接着，根据目标用户的近邻及其消费的项目抽取了具有用户和项目潜在影响因素的待填充的关键项目集合，并利用矩阵分解填充关键项目集合；然后，利用隐含狄利克雷分布（LDA）抽取用户在每个时间段内的概率主题分布，并利用时间惩罚权值建立用户动态偏好模型；最后，根据用户间概率主题分布的相关性和基于用户的协同过滤完成项目推荐。实验结果表明，与其他数据填充方法相比，基于会话时序相似性的矩阵分解数据填充方法在不同稀疏度下都能降低平均绝对误差（MAE），提高推荐性能。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于动态聚类的旅游线路推荐

肖春景, 夏克文, 乔永卫, 张宇翔

计算机应用 2017, 37 (8): 2395-2400. DOI: 10.11772/j.issn.1001-9081.2017.08.2395

摘要（634）

PDF （916KB）（646）

基于会话的协同过滤用固定时间窗划分交互历史并将用户兴趣表示为这些阶段的序列，但是旅游数据的高稀疏性会导致某些阶段内没有交互行为和近邻相似度计算困难的问题。为了缓解数据稀疏，有效利用数据特性，提出了基于动态聚类的旅游线路推荐算法。该方法首先分析了旅游数据不同于其他标准数据的特性；其次利用动态聚类得到的变长时间窗口对游客交互历史进行划分，利用潜在狄利克雷分布（LDA）抽取每个阶段的概率主题分布，结合时间惩罚权值建立用户兴趣漂移模型；接着，通过反映年龄、线路季节、价格等因素的游客特征向量为目标游客选择近邻和候选线路集合；最后根据候选线路和游客的概率主题相关度完成线路推荐。该方法通过采用变长时间窗口不但缓解了数据稀疏，而且划分的阶段数目不需提前指定，而是根据数据特性自动生成；近邻选择时采用特征向量而非旅游数据进行相似度计算，避免了由于数据稀疏无法计算的问题。在实际旅游数据上的大量实验结果表明，该方法不仅很好适应了旅游数据特征，而且提高了旅游线路的推荐精度。

参考文献 | 相关文章 | 多维度评价

Select

4. 改进的Spark Shuffle内存分配算法

侯伟凡, 樊玮, 张宇翔

计算机应用 2017, 37 (12): 3401-3405. DOI: 10.11772/j.issn.1001-9081.2017.12.3401

摘要（607）

PDF （909KB）（469）

Shuffle性能是影响大数据集群性能的重要指标，Spark自身的Shuffle内存分配算法试图为内存池中的每一个Task平均分配内存，但是在实验中发现，由于各Task对于内存需求的不均衡导致了内存的浪费和运行效率较低的问题。针对上述问题，提出一种改进的Spark Shuffle内存分配算法。该算法根据Task的内存申请量和历史运行数据将Task按内存需求分为大小两类，对小内存需求型Task作"分割化"处理，对大内存需求型Task基于Task溢出次数和溢出后等待时间分配内存。该算法充分利用内存池的空闲内存，可以在数据倾斜导致的Task内存需求不均衡的情况下进行Task内存分配的自适应调节。实验结果表明，改进后算法较原算法降低了Task的溢出率，减少了Task的周转时间，提高了集群的运行性能。

参考文献 | 相关文章 | 多维度评价